An increasingly important data analytic challenge is understanding the relationships between subpopulations. Various visualization methods that provide many useful insights into those relationships are popular, especially in bioinformatics. This paper proposes a novel and rigorous approach to quantifying subpopulation relationships called the Population Difference Criterion (PDC). PDC is simultaneously a quantitative and visual approach to showing separation of subpopulations. It uses subpopulation centers, the respective variation about those centers and the relative subpopulation sizes. This is accomplished by drawing motivation for the PDC from classical permutation based hypothesis testing, while taking that type of idea into non-standard conceptual territory. In particular, the domain of very small P values is seen to seem to provide useful comparisons of data sets. Simulated permutation variation is carefully investigated, and we found that a balanced permutation approach is more informative in high signal (i.e large subpopulation difference) contexts, than conventional approaches based on all permutations. This result is quite surprising in view of related work done in low signal contexts, which came to the opposite conclusion. This issue is resolved by the proposal of an appropriate adjustment. Permutation variation is also quantified by a proposed bootstrap confidence interval, and demonstrated to be useful in understanding subpopulation relationships with cancer data.
translated by 谷歌翻译
Scholarly text is often laden with jargon, or specialized language that divides disciplines. We extend past work that characterizes science at the level of word types, by using BERT-based word sense induction to find additional words that are widespread but overloaded with different uses across fields. We define scholarly jargon as discipline-specific word types and senses, and estimate its prevalence across hundreds of fields using interpretable, information-theoretic metrics. We demonstrate the utility of our approach for science of science and computational sociolinguistics by highlighting two key social implications. First, we measure audience design, and find that most fields reduce jargon when publishing in general-purpose journals, but some do so more than others. Second, though jargon has varying correlation with articles' citation rates within fields, it nearly always impedes interdisciplinary impact. Broadly, our measurements can inform ways in which language could be revised to serve as a bridge rather than a barrier in science.
translated by 谷歌翻译
水下成像是海洋机器人执行的一项关键任务,用于广泛的应用,包括水产养殖,海洋基础设施检查和环境监测。但是,水柱的影响(例如衰减和反向散射)会大大改变捕获的水下图像的颜色和质量。由于水条件的变化和这些影响的范围依赖性,恢复水下图像是一个具有挑战性的问题。这会影响下游感知任务,包括深度估计和3D重建。在本文中,我们推进了神经辐射场(NERFS)的最先进,以实现物理信息密集的深度估计和颜色校正。我们提出的方法Waternerf估计了水下图像形成的基于物理的模型的参数,从而导致混合数据驱动和基于模型的解决方案。在确定了场景结构和辐射场之后,我们可以产生降级和校正的水下图像的新颖观点,以及场景的密集深度。我们对实际水下数据集进行定性和定量评估所提出的方法。
translated by 谷歌翻译
当人类与机器人互动时,不可避免地会影响。考虑一辆在人类附近行驶的自动驾驶汽车:自动驾驶汽车的速度和转向将影响人类驾驶方式。先前的作品开发了框架,使机器人能够影响人类对所需行为的影响。但是,尽管这些方法在短期(即前几个人类机器人相互作用)中有效,但我们在这里探索了长期影响(即同一人与机器人之间的重复相互作用)。我们的主要见解是,人类是动态的:人们适应机器人,一旦人类学会预见机器人的行为,现在影响力的行为可能会失败。有了这种见解,我们在实验上证明了一种普遍的游戏理论形式主义,用于产生有影响力的机器人行为,而不是重复互动的有效性降低。接下来,我们为Stackelberg游戏提出了三个修改,这些游戏使机器人的政策具有影响力和不可预测性。我们最终在模拟和用户研究中测试了这些修改:我们的结果表明,故意使他们的行为更难预期的机器人能够更好地维持对长期互动的影响。在此处查看视频:https://youtu.be/ydo83cgjz2q
translated by 谷歌翻译
使用样式转移模型来降低社交媒体评论的侵犯性可以帮助促进更具包容性的环境。但是,没有大量的数据集包含令人反感的文本及其不利的同行,并且具有有限标记数据的微调预审计模型可以导致样式传递文本中原始含义的丧失。为了解决这个问题,我们提供了两个主要贡献。首先,我们发布了第一个公开可用的,平行的反击红色评论及其风格转让的评论,由专家社会语言学家注释。然后,我们介绍了第一个话语感知的样式转移模型,这些模型可以有效地降低Reddit文本中的进攻性,同时保留原始文本的含义。这些模型是第一个检查评论与文本之间回复的推论链接的模型,以转移进攻性reddit文本的样式。我们提出了两种不同的方法,将话语关系与预验证的变压器模型集成在一起,并在我们的Reddit及其无罪分子同行的进攻评论的数据集中对其进行评估。相对于自动指标和人类评估的基线的改进表明,与最先进的话语 - 不可思议的模型相比,我们的话语感知模型在保持样式转移文本的含义方面更好。
translated by 谷歌翻译
我们介绍了StreamNet,这是一种自动编码器体系结构,用于分析大量白质流线的高度异质几何形状。该提出的框架利用了Wasserstein-1度量的几何形状赋值特性,以实现整个流线束的直接编码和重建。我们表明,该模型不仅可以准确捕获人群中流线的分布结构,而且还能够在真实和合成流线之间实现出色的重建性能。使用最新的ART捆绑包比较度量标准,对40个健康对照的T1加权扩散成像产生的白质流线评估了实验模型性能。
translated by 谷歌翻译
神经辐射场(NERF)的最新进展实现了最新的新型视图合成,并促进了场景特性的密集估计。但是,在非常稀疏的视图下捕获的大型无界场景通常会失败,而场景内容集中在远离相机的情况下,这是典型的现场机器人应用程序。特别是,NERF风格的算法的性能很差:(1)当视图不足而呈姿势多样性的情况不足时,(2)当场景包含饱和度和阴影时,以及(3)当对具有精细结构的大型无界场景进行精心采样时,计算中就会大量强度。本文提出了克隆器,它通过允许从稀疏输入传感器视图中观察到的大型户外驾驶场景来对NERF进行显着改善。这是通过将NERF框架内的占用和颜色学习分离成分别使用LIDAR和相机数据训练的单独的多层感知器(MLP)来实现的。此外,本文提出了一种新的方法,可以在NERF模型旁边构建可区分的3D占用网格图(OGM),并利用此占用网格来改进沿射线的点采样,以在度量空间中进行体积渲染。通过在Kitti数据集的场景上进行的广泛定量和定性实验,本文表明,在新的视图合成和密集的深度预测任务上对稀疏输入数据培训时,所提出的方法在新型视图合成和密集的深度预测任务上都优于最先进的NERF模型。
translated by 谷歌翻译
金属有机框架(MOF)是一类模块化的多孔晶体材料,具有巨大的革命性应用,例如储气,分子分离,化学感应,催化和药物输送。剑桥结构数据库(CSD)报告了10,636个合成的MOF晶体,此外还包含CA。114,373个类似MOF的结构。综合数量(加上可能合成的)MOF结构数量庞大,需要研究人员追求计算技术来筛选和分离MOF候选物。在此演示论文中,我们描述了我们在利用知识图方法方面促进MOF预测,发现和综合方面的努力。我们提出了有关(1)从结构化和非结构化来源构建MOF知识图(MOF-KG)的挑战和案例研究,以及(2)利用MOF-KG来发现新知识或缺失知识。
translated by 谷歌翻译
驾驶员注意力预测的任务引起了研究人员对机器人技术和自动驾驶汽车行业的极大兴趣。驾驶员注意力预测可以在缓解和预防高风险事件(如碰撞和伤亡)中发挥工具作用。但是,现有的驾驶员注意力预测模型忽略了驾驶员的分心状态和意图,这可能会极大地影响他们观察周围环境的方式。为了解决这些问题,我们提出了一个新的驾驶员注意数据集Cocatt(认知条件的注意力)。与以前的驾驶员注意数据集不同,Cocatt包括描述驾驶员的分心状态和意图的人均注释。此外,我们的数据集中的注意力数据使用不同分辨率的眼睛跟踪设备在手动和自动驾驶模式中捕获。我们的结果表明,将上述两个驱动程序状态纳入注意力建模可以提高驾驶员注意力预测的性能。据我们所知,这项工作是第一个提供自动驾驶注意数据的工作。此外,就自主性水平,眼动分辨率和驾驶场景而言,Cocatt目前是最大,最多样化的驾驶员注意数据集。 Cocatt可在https://cocatt-dataset.github.io上下载。
translated by 谷歌翻译
整个幻灯片组织学图像中的组织类型学注释是一项复杂而乏味但既繁琐但必要的任务,用于开发计算病理学模型。我们建议通过将开放式识别技术应用于共同分类属于一组带注释类的组织的任务来解决此问题。临床相关的组织类别,同时拒绝测试时间开放式样品,即属于训练集中不存在的类别的图像。为此,我们引入了一种基于训练模型的开放式组织病理图像识别的新方法,以准确识别图像类别,并同时预测已应用了哪些数据增强变换。在测试时间中,我们测量了模型的置信度预测这种转换,我们期望开放集中的图像较低。在组织学图像的结直肠癌评估的背景下,我们进行了全面的实验,这些实验为我们的方法提供了证据,以自动从未知类别中识别样品的优势。代码在https://github.com/agaldran/t3po上发布。
translated by 谷歌翻译